ফিচার স্কেলিং হল একটি গুরুত্বপূর্ণ প্রক্রিয়া যা মেশিন লার্নিং মডেলগুলির জন্য প্রাসঙ্গিক ডেটা প্রসেসিং স্টেপ। এটি ডেটার ফিচারগুলির মধ্যে স্কেল বা পরিসরের পার্থক্য দূর করার জন্য ব্যবহৃত হয়, যাতে মডেলটি সঠিকভাবে কাজ করতে পারে। বিশেষত, বিভিন্ন মডেল যেমন লিনিয়ার রিগ্রেশন, কন্টিনিউয়াস ডেটা নিয়ে কাজ করে, যখন ফিচারের স্কেল একে অপর থেকে অনেক বেশি ভিন্ন হয়, তখন মডেলটি ঠিকভাবে শেখা বা ভবিষ্যদ্বাণী করতে পারে না।
ফিচার স্কেলিং দুটি প্রধান পদ্ধতিতে বিভক্ত:
নর্মালাইজেশন (বা Min-Max স্কেলিং) হল একটি পদ্ধতি যা ডেটার প্রতিটি ফিচারকে একটি নির্দিষ্ট পরিসরে (সাধারণত ০ থেকে ১ এর মধ্যে) নিয়ে আসে। এই পদ্ধতিতে, প্রতিটি মানকে তার বর্তমান পরিসরের সর্বনিম্ন মান থেকে সর্বোচ্চ মানের মধ্যে স্কেল করা হয়।
নর্মালাইজেশন করার জন্য প্রতিটি ফিচারের মানকে নিচের ফর্মুলা অনুযায়ী ক্যালকুলেট করা হয়:
Xnorm=X−min(X)max(X)−min(X)
এখানে,
ধরা যাক, আমরা একটি ডেটাসেটের মধ্যে একটির মধ্যে বয়সের মান ১৮ থেকে ৭০ এবং অন্যটির মধ্যে ইনকাম ১০০০ থেকে ১,০০,০০০ পর্যন্ত। এমন পরিস্থিতিতে নর্মালাইজেশন ব্যবহারের মাধ্যমে স্কেল করে এই মানগুলিকে ০ এবং ১ এর মধ্যে নিয়ে আসা হবে।
স্ট্যান্ডার্ডাইজেশন বা Z-score স্কেলিং হল এমন একটি পদ্ধতি যা ডেটাকে এমনভাবে স্কেল করে যে তার মানের গড় (mean) ০ এবং স্ট্যান্ডার্ড ডিভিয়েশন (standard deviation) ১ হয়। এটি ডেটার সেন্ট্রালাইজেশন এবং স্কেলিং উভয়কে একসাথে করে।
স্ট্যান্ডার্ডাইজেশন করার জন্য প্রতিটি ফিচারের মানকে নিচের ফর্মুলা অনুযায়ী ক্যালকুলেট করা হয়:
Xstd=X−μσ
এখানে,
ধরা যাক, বয়সের গড় ৪০ এবং স্ট্যান্ডার্ড ডেভিয়েশন ১৫, যদি একটি ব্যক্তি ৫৫ বছর বয়সী হন, তাহলে তার স্ট্যান্ডার্ডাইজড মান হবে:
Xstd=55−4015=1
ফিচার স্কেলিং মেশিন লার্নিং মডেলকে আরও কার্যকর এবং দ্রুতগতির কাজ করার জন্য গুরুত্বপূর্ণ। নর্মালাইজেশন একটি নির্দিষ্ট সীমার মধ্যে ডেটাকে নিয়ে আসে, যখন স্ট্যান্ডার্ডাইজেশন ডেটার গড় এবং স্ট্যান্ডার্ড ডিভিয়েশন ব্যবহার করে। মডেল এবং ডেটার ধরণ অনুযায়ী ফিচার স্কেলিংয়ের সঠিক পদ্ধতি নির্বাচন করা উচিত।
Read more